草庐IT

RuntimeError: CUDA out of memory

全部标签

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`

问题背景今天训练BERT时遇到了这个bug:RuntimeError:CUDAerror:CUBLAS_STATUS_NOT_INITIALIZEDwhencalling`cublasCreate(handle)`于是在网上搜罗了一番,发现基本都是在说batchsize开的太大,但调小batchsize对我而言并不能解决问题。解决过程既然是比较罕见的CUDA报错,为什么不尝试先在CPU上跑跑看看呢?于是我将device='cuda'iftorch.cuda.is_available()else'cpu'直接改成了device='cpu',再运行代码时遇到了如下的bug(只截取了最后几行):Fi

加载ChatGLM模型 RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseFromArr

问题描述:加载ChatGLM模型RuntimeError:Internal:src/sentencepiece_processor.cc(1101)[model_proto->ParseFromArr问题原因:模型仓库地址:THUDM/chatglm-6batmain 下载模型这是官方的gitclone命令由于仓库中有8个大模型文件我使用了是:gitlfsinstallGIT_LFS_SKIP_SMUDGE=1gitclonehttps://huggingface.co/THUDM/chatglm-6b下载完后,单独去下载8个大模型文件。都下载好了,运行pythonweb_demo.py开始报

detectron2报错解决方案 RuntimeError: Default process group has not been initialized, please make sure to c

问题:RuntimeError:Defaultprocessgrouphasnotbeeninitialized,pleasemakesuretocallinit_process_group.解决:github503问题,解决方案,windows环境使用detectron2#503cuda_num=os.environ['CUDA_VISIBLE_DEVICES']cuda_num_list=list(cuda_num.split(",")) iflen(cuda_num_list)==1:importtorch.distributedasdistdist.init_process_group

Pytorch训练过程中出现RuntimeError: falseINTERNAL ASSERT FAILED... Couldn‘t open shared file mapping...

一句话:换成pytorch1.8。一、问题描述今天跑一个开源的模型跑到第9个epoch时报错,如下:RuntimeError:falseINTERNALASSERTFAILEDat"..\\aten\\src\\ATen\\MapAllocator.cpp":135,pleasereportabugtoPyTorch.Couldn'topensharedfilemapping:,errorcode:二、寻找解决方案遂搜索,同类问题比较少,有一个博客讲到是显卡性能问题。于是我尝试大幅降低batch_size和works,又跑了一遍,这次第3个epoch就报了同样的错误(我跑一个epoch要一小时

RuntimeError: shape ‘[-1, 784]‘ is invalid for input of size 68076

在应用torch进行测试时,有可能出现这种错误:RuntimeError:shape'[-1,784]'isinvalidforinputofsize68076这个错误通常是由于输入数据的大小与模型期望的输入大小不匹配导致的。具体地说,在这个错误信息中,[-1,784]表示输入张量的形状是一个二维张量,第一个维度大小是-1,第二个维度大小是784,其中-1表示这个维度的大小是不确定的,而第二个维度大小为784表示每个样本有784个特征。而"inputofsize68076"表示输入张量的总大小是68076,与期望的大小不匹配。为了解决这个错误,可以需要检查输入数据的形状和大小是否与模型期望的输

RuntimeError:CUDA error:no kernel image is available for execution on the device报错解决(亲测)

深度学习算法训练报错调试Transformer网络,安装完timm包之后,运行程序时报错CUDAerror:nokernelimageisavailableforexecutiononthedevice,如图所示:网上对于该错误说啥的都有,因为这是第一次遇到这个错误,之前训练CNN也正常,排除显卡算力低,不支持高版本CUDA问题。看来看去,这位博主说的有道理:CUDAerror:nokernelimageisavailableforexecutiononthedevice报错解决方法开始检查自己的pytorch相关包的版本,如图所示:发现问题,我原本torch版本是1.9.1,但是由于安装ti

【解决】RuntimeError: Boolean value of Tensor with more than one value is ambiguous

在用pytorch进行损失函数计算时,报错误:RuntimeError:BooleanvalueofTensorwithmorethanonevalueisambiguous翻译过来就是说:具有多个值的张量的布尔值不明确 我是这报错:x=Variable(x_data).cuda()y=Variable(y_data).cuda()out=model(x)loss=criterion(out,y)啥意思?,你问我,我也不知道呀!、、、 错误原因分析:其实是,因为我损失函数调用时没有初始化,所以导致报错其实我是初始化了,但是因为没有+(),所以报错了criterion=nn.BCELoss在后面

RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the

问题描述:mobilenetv3在残差块中加入了注意力机制 用GPU进行训练时报的错解决方法1:1,不用GPU用CPU就可以CUDA设置为False,确实可以解决,但是不用GPU好像意义不大解决方法2:用仍然用GPU,看下面的的解决方案:报错的原因:21,我直接在倒残差块的前向传播内对导入的注意力模块进行了实例化然后直接调用错误范例2,错误分析:参照这个链接得到启发原文链接:https://blog.csdn.net/qq_42902997/article/details/122594017这个时候就会报错,而报错的原因,就是因为torch的流程是这样的:首先将所有的模型加载,先从主干网络 开

BUG:RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo

报错分析当运行以下代码报错:#self.opt.gpu_ids=["1"]torch.cuda.set_device(self.opt.gpu_ids[0])报错信息如下:RuntimeError:CUDAerror:invaliddeviceordinalCUDAkernelerrorsmightbeasynchronouslyreportedatsomeotherAPIcall,sothestacktracebelowmightbeincorrect.FordebuggingconsiderpassingCUDA_LAUNCH_BLOCKING=1.报错完整截图:报错的信息告诉我们,编号“

RuntimeError: expected scalar type Half but found Float

起因:将CCNet的十字交叉注意力模块移植到YOLOv5中。经过:在注意力模块中,会有较多的矩阵运算,在训练时出现了cuda和cup类型的冲突(另一篇我写的文章);而在验证时出现了上述错误。出错的代码如下:#[b1*w1,c1,h1]->[b1,w1,c1,h1]->[b1,c1,h1,w1]out_H=torch.bmm(value_H,att_H.permute(0,2,1)).view(b1,w1,-1,h1).permute(0,2,3,1)#[b1*h1,c1,w1]->[b1,h1,c1,w1]->[b1,c1,h1,w1]out_W=torch.bmm(value_W,att_W